关于点击率(CTR)预测的最新研究通过对更长的用户行为序列进行建模,已达到新的水平。除其他外,两阶段的方法是用于工业应用的最先进的解决方案(SOTA)。两阶段方法首先训练检索模型,以事先截断长行为序列,然后使用截短序列训练CTR模型。但是,检索模型和CTR模型是分别训练的。因此,CTR模型中检索到的子序列不准确,它降低了最终性能。在本文中,我们提出了一个端到端范式来建模长行为序列,与现有模型相比,该序列能够实现卓越的性能以及出色的成本效益。我们的贡献是三倍:首先,我们提出了一个名为ETA-NET的基于哈希的有效目标(TA)网络,以基于低成本的位置操作来启用端到端的用户行为检索。提出的ETA-NET可以通过顺序数据建模的数量级来降低标准TA的复杂性。其次,我们建议将通用系统体系结构作为一种可行的解决方案,用于在工业系统上部署ETA-NET。特别是,与SOTA两阶段方法相比,ETA-NET已部署在TAOBAO的推荐系统上,并在CTR上带来了1.8%的升降机和3.1%的升降机(GMV)。第三,我们在离线数据集和在线A/B测试上进行了广泛的实验。结果证明,在CTR预测性能和在线成本效益方面,所提出的模型大大优于现有的CTR模型。 ETA-NET现在为TAOBAO的主要流量提供服务,每天为数亿用户提供服务。
translated by 谷歌翻译
尖峰神经网络(SNN)是一种具有生物学知识的模型,具有高计算能力和低功耗的优势。虽然对深SNN的培训仍然是一个空旷的问题,但它限制了深SNN的现实应用。在这里,我们提出了一个名为Spiking SiamFC ++的深SNN架构,用于对象跟踪,并通过端到端直接培训。具体而言,Alexnet网络在时间域中扩展以提取该功能,并采用替代梯度功能来实现对深SNN的直接监督培训。为了检查尖峰SiAMFC ++的性能,考虑了几种跟踪基准测试,包括OTB2013,OTB2015,Dot2015,Dot2016和UAV123。发现与原始的siAMFC ++相比,精度损失很小。与现有的基于SNN的目标跟踪器相比,例如暹罗(Siamsnn),提议的Spiking SiamFC ++的精度(连续)达到了85.24%(64.37%),远高于52.78%(44.32%)的精度(64.37%)。 。据我们所知,Spiking SiamFC ++的性能优于基于SNN的对象跟踪中现有的最新方法,该方法为目标跟踪领域中的SNN应用提供了新的路径。这项工作可能会进一步促进SNN算法和神经形态芯片的发展。
translated by 谷歌翻译
现有检测方法通常使用参数化边界框(Bbox)进行建模和检测(水平)对象,并将其他旋转角参数用于旋转对象。我们认为,这种机制在建立有效的旋转检测回归损失方面具有根本的局限性,尤其是对于高精度检测而言,高精度检测(例如0.75)。取而代之的是,我们建议将旋转的对象建模为高斯分布。一个直接的优势是,我们关于两个高斯人之间距离的新回归损失,例如kullback-leibler Divergence(KLD)可以很好地对齐实际检测性能度量标准,这在现有方法中无法很好地解决。此外,两个瓶颈,即边界不连续性和正方形的问题也消失了。我们还提出了一种有效的基于高斯度量的标签分配策略,以进一步提高性能。有趣的是,通过在基于高斯的KLD损失下分析Bbox参数的梯度,我们表明这些参数通过可解释的物理意义进行了动态更新,这有助于解释我们方法的有效性,尤其是对于高精度检测。我们使用量身定制的算法设计将方法从2-D扩展到3-D,以处理标题估计,并在十二个公共数据集(2-D/3-D,空中/文本/脸部图像)上进行了各种基本检测器的实验结果。展示其优越性。
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
实时视频广播通常需要具有域知识的多种技能和专业知识,以实现多摄像头制作。随着摄像机的数量不断增加,指导现场运动广播现在比以往任何时候都变得更加复杂和挑战。在生产过程中,广播董事需要更加集中,响应,令人满意的知识。为了使董事免于其密集努力,我们开发了一个叫做智能总监的创新自动化体育广播指示系统,旨在模仿典型的人类循环广播过程,以实时自动创建近专业广播节目通过使用一组高级多视图视频分析算法。灵感来自于所谓的“三事”的体育广播建设,我们用一个由三个连续新型组件组成的事件驱动管道构建我们的系统:1)通过建模多视图相关性来检测事件的多视图事件定位2)多视图突出显示检测通过视图选择的视觉重视等级相机视图,3)自动广播调度程序来控制广播视频的生产。为了我们的最佳知识,我们的系统是用于多摄像机运动广播的第一个端到端的自动化指导系统,完全受到体育赛事的语义理解。它还是通过跨视网膜关系建模解决多视图联合事件检测的新问题的第一系统。我们对现实世界的多相机足球数据集进行客观和主观评估,这证明了我们的自动生成视频的质量与人类导向的质量相当。由于其更快的回应,我们的系统能够捕获更快速的快速和短期持续时间,通常由人道持有。
translated by 谷歌翻译
构建复杂三维(3D)塑料部件上的精确微纳米金属图案允许制造用于先进应用的功能装置。但是,这种图案目前是昂贵的,需要具有长制造时间的复杂过程。本作者演示了一种用任意复杂的形状制造微纳米3D金属塑料复合结构的方法。在这种方法中,修饰光固化树脂以制备能够允许随后的化学镀(ELP)的活性前体。新开发了一种多材料数字光处理3D打印机,以使含有由标准树脂或彼此嵌套的标准树脂或有源前体树脂制成的区域的部件的制造。这些部件的选择性3D ELP处理提供了各种金属塑料复合部件,其具有复杂的中空微纳米结构,其尺寸小于40μm的尺寸规模特定的拓扑关系。使用这种技术,可以通过传统方法制造的3D金属拓扑,并且可以在塑料部件内产生金属图案作为进一步小型化电子设备的装置。所提出的方法还可以产生具有改善金属粘附到塑料基材的金属涂层。基于该技术,设计并制造了由不同功能性非金属材料和特定金属图案组成的几种传感器。本结果证明了该方法的可行性,并提出了智能3D微纳米电子,3D可穿戴设备,微/纳米传感器和医疗保健领域的潜在应用。
translated by 谷歌翻译
行动预测旨在通过部分观察视频推断即将举行的人类行动,这是由于早期观察结果有限的信息有限。现有方法主要采用重建策略来处理此任务,期望从部分观察到完整视频来学习单个映射函数,以便于预测过程。在这项研究中,我们提出了来自两个新方面的部分视频查询生成“完整视频”功能调节的对抗性记忆网络(AMEMNet)。首先,键值结构化存储器发生器旨在将不同的部分视频存储为键存储器,并在具有门控机制和查询关注的值存储器中动态地写入完整视频。其次,我们开发了一个类感知判别者,以指导内存发生器在对抗训练时不仅提供现实,而且还提供鉴别的完整视频特征。通过RGB和光学流量的晚期融合给出了AMEMNET的最终预测结果。提供两个基准视频数据集,UCF-101和HMDB51的广泛实验结果,以证明所提出的AMEMNET模型在最先进的方法的有效性。
translated by 谷歌翻译
卷积神经网络(CNN)具有一定量的参数冗余,滤波器修剪旨在去除冗余滤波器,并提供在终端设备上应用CNN的可能性。但是,以前的作品更加注重设计了滤波器重要性的评估标准,然后缩短了具有固定修剪率的重要滤波器或固定数量,以减少卷积神经网络的冗余。它不考虑为每层预留有多少筛选器是最合理的选择。从这个角度来看,我们通过搜索适当的过滤器(SNF)来提出新的过滤器修剪方法。 SNF专用于搜索每层的最合理的保留过滤器,然后是具有特定标准的修剪过滤器。它可以根据不同的拖鞋定制最合适的网络结构。通过我们的方法进行过滤器修剪导致CIFAR-10的最先进(SOTA)精度,并在Imagenet ILSVRC-2012上实现了竞争性能。基于Reset-56网络,在Top-中增加了0.14%的增加0.14% 1对CIFAR-10拖出的52.94%的精度为52.94%。在减少68.68%拖鞋时,CiFar-10上的修剪Resnet-110还提高了0.03%的1 0.03%的精度。对于Imagenet,我们将修剪速率设置为52.10%的拖鞋,前1个精度只有0.74%。该代码可以在https://github.com/pk-l/snf上获得。
translated by 谷歌翻译
场景文本识别(str)是图像和文本之间的重要桥梁,吸引了丰富的研究关注。虽然卷积神经网络(CNNS)在此任务中取得了显着的进展,但大多数现有工作都需要额外的模块(上下文建模模块)来帮助CNN捕获全局依赖项来解决归纳偏差并加强文本特征之间的关系。最近,该变压器已被提出作为通过自我关注机制的全球背景建模的有希望的网络,但在应用于识别时主要缺点是效率。我们提出了一个1-D拆分来解决复杂性的挑战,并用变压器编码器替换CNN,以减少对上下文建模模块的需求。此外,最近的方法使用冻结的初始嵌入来指导解码器对文本进行解码,导致精度损失。我们建议使用从变压器编码器中学到的学习学习的可读初始嵌入,使其自适应不同的输入图像。最重要的是,我们介绍了一个新颖的文本识别架构,名为基于变压器的文本识别器,其中包含三个阶段(转换,特征提取和预测)组成的初始嵌入指导(TRIG)。广泛的实验表明,我们的方法可以在文本识别基准上实现最先进的。
translated by 谷歌翻译
非政策评估(OPE)是用其他策略生成的数据评估目标策略。大多数以前的OPE方法都侧重于精确估计策略的真实绩效。我们观察到,在许多应用程序中,(1)OPE的最终目标是比较两个或多个候选策略并选择一个好的策略,这比精确评估其真实绩效要简单得多; (2)通常已经部署了多种政策来为现实世界中的用户提供服务,因此可以知道这些策略的真实绩效。受到这两个观察结果的启发,在这项工作中,我们研究了一个新问题,监督了政体排名(SOPR),该排名旨在通过利用现有绩效的非政策数据和策略来对基于监督学习的一组目标策略进行排名。我们提出了一种解决SOPR的方法,该方法通过最大程度地减少培训政策的排名损失而不是估算精确的政策绩效来学习政策评分模型。我们方法中的评分模型是一个基于层次变压器的模型,将一组状态行动对映射到一个分数,其中每对的状态来自非政策数据,而目标策略是在状态上采取的。以离线方式。公共数据集的广泛实验表明,我们的方法在等级相关性,遗憾价值和稳定性方面优于基线方法。我们的代码在GitHub公开获得。
translated by 谷歌翻译